DH – Data harvester

1 Inleiding[//]

Vubis ondersteunt een automatische 'harvester' voor bibliografische records, op basis van het Z39.50 harvesting protocol.

Deze 'harvester' automatiseert de workflow voor catalogiseren op basis van records uit andere databases, waarbij Z39.50 catalogiseerprofielen gebruikt worden om Z39.50 bronnen te doorzoeken en vervolgens gegevens in uw eigen catalogusrecords te voegen.

Hieronder volgt een beschrijving van de benodigde stappen om deze functionaliteit te kunnen gaan gebruiken.

2 Setup[//]

Er moet een vergelijkprofiel gedefinieerd worden in AFO 114 om aan te geven welke veld(en) er gebruikt moeten worden om te bepalen of records hetzelfde zijn.

Er moet een samenvoegprofiel gedefinieerd worden in AFO 115 om aan te geven wat er moet gebeuren met velden wanneer u records samenvoegt die 'hetzelfde' zijn gebaseerd op het vergelijkprofiel.

Optioneel kan er een conversieprofiel gedefinieerd worden in AFO 134, in het geval het formaat van de inkomende records afwijkt van het formaat in uw eigen database.

Er wordt een standaard profiel gedefinieerd in AFO 133 waarin het Z39.50 type van het inkomende record is vastgelegd, alsmede benodigde conversies, match & merge criteria, doeldatabase en sjabloon, e.d. Dit wordt gekoppeld aan de eerder gedefinieerde vergelijk- en samenvoegbestanden (en optioneel aan het conversieprofiel).

Dit importprofiel wordt vervolgens gespecificeerd in de definitie van de Z39.50 Database in AFO 651. Er wordt een Z39.50 profiel gedefinieerd voor de partners waarvan gekopieerd wordt, alsmede een catalogiseerprofiel om de originele recordsleutel te koppelen aan de bron waaruit gekopieerd wordt. Zie AFO 651 - Z39.50 Parameters - Target Profielen - Catalogiseerprofielen voor details.

Er wordt een selectieprofiel gemaakt in AFO 141 om een lijst van bibliografische records op te halen. Er zijn twee velden om het invoerscherm voor het maken van een selectieprofiel, die alleen geldig zijn voor bibliografische selecties: 'Update type' en 'Update profiel'.

Raadpleeg de online help van bovengenoemde AFO's voor gedetailleerde informatie over iedere stap.

3 Workflow[//]

Het selectieprofiel kan worden uitgevoerd op een voorgedefinieerde bewaarlijst of gebruikt worden om een nieuwe bewaarlijst aan te maken. Het systeem doorloopt de resulterende bewaarlijst en verwerkt elk record als volgt:

1.              Er wordt een Z39.50 zoekactie gestart die gebruik maakt van de zoekcriteria als gedefinieerd in het opgegeven catalogiseerprofiel. Dit kan bijvoorbeeld EAN, ISSN, ISBN of andere specifieke zoeksleutel zijn.

2.              De zoekvraag resulteert in een van drie mogelijke opties:

·                er komt geen record terug – er wordt een melding weggeschreven in het rapportagebestand

·                er komt één record terug  – het bibliografische record wordt bijgewerkt met de standaard laad en wijzig opties

·                er komt meer dan één record terug  – er wordt een melding weggeschreven in het rapportagebestand

Het rapportagebestand kan worden geraadpleegd via de standaardopties in AFO 642 in standaard txt formaat.

Voorbeeld:

We hebben een aantal basisrecords, opgeslagen in een bewaarlijst:

We willen nu dat het systeem de volledige catalogusrecords voor ons vindt in een opgegeven Z39.50 database.

1.              Definieer een vergelijkprofiel in AFO 114 om aan te geven wat er met wijzigingen in een record moet gebeuren. In dit voorbeeld gebruiken we Marc21 020 $a (ISBN) en 022$a (ISSN) index ingangen als onze match criteria:

2.              Definieer een samenvoegprofiel regelset in AFO 115 om aan te geven hoe records moeten worden samengevoegd. In dit voorbeeld gaan we het bestaande record overschrijven met het binnenkomende record uit onze bron:

De details zijn:

3.              Definieer een conversieprofiel in AFO 134 indien nodig, om vast te leggen in welke velden van de lokale database informatie uit inkomende records moet worden opgeslagen.

4.              Definieer een Importprofiel in AFO 133. Dit bepaalt karakterset, formaat van binnenkomende records, te gebruiken conversieprofiel, te gebruiken bewaarlijsten tijdens het laadproces en de koppelingen naar vergelijkprofiel, samenvoegprofiel, doeldatabase, conversieprofiel e.d. Aangezien het te gebruiken Harvesting protocol Z39.50 is, dient het import formaat correct ISO2709 formaat te zijn.

5.              Maak in AFO 651 - Z39.50 een database en database groep voor de te benaderen Z39.50 server. Geef bij de Data Source definitie het importprofiel op dat is gedefinieerd voor Harvesting (match and merge) in AFO 133.

6.              Maak in AFO 651 - Z39.50 - Target Profiel een target of target groep die gebruikt zal worden voor de zoekvraag.

7.              Maak in AFO 651 - Targets - Catalogiseerprofiel een profiel voor wijzigen of toevoegen

Selecteer de target profiel groep voor de Z39.50 zoekgroep. Access point is het Use Attribute dat gestuurd zal worden naar de target Z39.50 zoekgroep.

Search key bepaalt de velden(en)/subveld(en) uit het bronrecord die gebruikt moeten worden om de data te identificeren die als zoeksleutel naar de target host gestuurd moet worden.

Er kunnen meerdere velden(en)/subveld(en) opgegeven worden, gescheiden door een komma. (bijv. 020/$a,022/$a voor Marc21 ISBN en ISSN veld).

8.              In AFO 141 - Selecteren wordt een nieuw selectieprofiel gemaakt

Bij het Updateprofiel moet het catalogiseerprofiel opgegeven worden dat is aangemaakt in 651 / Targets

Let op

Er moet tenminste één criterium worden opgegeven. In het voorbeeld is dat "als ISBN of ISSN is gedefinieerd".

Verwerking

AFO 141 – maak een bewaarlijst van records in de huidige lokale database. Dit zijn de basisrecords die overschreven kunnen worden door inkomende gegevens. In plaats daarvan kan het selectieprofiel gebruikt worden om zelf een bewaarlijst aan te maken. In het voorbeeld hebben we een bewaarlijst uit database 1 en voeren we de selectie voor harvesting uit waarbij records worden opgeslagen in database 6.

De selectie wordt uitgevoerd vanaf de bewaarlijst. Het eerdere gedefinieerde selectieprofiel voor harvesting of wijzigen van records wordt gebruikt.

Het resultaat is dat de basisrecords nu zijn aangevuld dan wel als nieuw record ingevoerd (afhankelijk van het profiel). In het voorbeeld gebruikten we basisrecords uit database 1 en sloegen de nieuwe records op in database 6.

Voorbeeldrapport

De harvester rapporteert wat is er is verrijkt, wat niet is verrijkt enz. Er kunnen ook bewaarlijsten geproduceerd worden van wel/niet verrijkte records. Deze bewaarlijst zijn terug te vinden in AFO 141. Het doel hiervan is: de gebruiker kan de records nakijken (zien wat er gebeurd is, omdat je dat niet weet aangezien alles volledig automatisch verloopt). De bewaarlijst van niet verrijkte records kan gebruikt worden om later handmatig bij te werken of voor een andere « harvesting sessie » (uit een andere database, of dezelfde database maar 2 maanden later).

Het rapport toont aantallen voor de diverse mogelijkheden (geladen, niet gevonden, enz.) en daarbij database en record nummer voor problemen (bijv. 6.245):

Z39.50 harvester

------------------------------------------------------------------

Records processed : 100

Loaded records : 76

Not found : 22

------------------------------------------------------------------

       6.245

       6.276

       6.315

       6.324

       6.329

       6.338

       6.341

       6.355

       6.361

       6.391

       6.393

       6.396

       6.399

       6.402

       6.404

       6.406

       6.409

       6.416

       6.417

       6.250

       6.360

       6.400

------------------------------------------------------------------

More than one found : 1

6.366

------------------------------------------------------------------

Errors : 1

------------------------------------------------------------------

       6.199 : No key in local record

Of

Z39.50 harvester

------------------------------------------------------------------

Records processed : 4

Loaded records : 4

Not found : 0

More than one found : 0

Errors : 0


·                     Document control - Change History

 

Version

Date

Change description

Author

1.0

November 2009

creation
part of 2.0 updates